查看原文
其他

运维墨菲定律,值得每天读一遍

duxuefeng Linux云计算网络 2021-12-21

阅读本文大概需要 5 分钟。

作者:duxuefeng
来源:https://urlify.cn/zA7Bvm

运维墨菲定律,请每天读一遍以下的内容,可以自省。

  1. 任何事情都没有表面看起来那么简单

  2. 所有的事情都会比你预计的时间长

  3. 会出错的事总会出错

  4. 如果你担心某种事情会发生,那么它更有可能发生

  5. 如果第一次便成功,显然你已经做错某事

  6. 当一切都朝着一个方向进行,最好朝着相反的方向深深的看一眼

  7. 自动消失的问题会自动回来

  8. 若大家的想法都差不多,显然没有一个人是在认真的思考

  9. 好的开始,未必就有好的结果,坏的开始,结果往往会更坏

  10. 必须永远假设你的假设无效

  11. 教育无法取得才智


这里不会讲具体的技术和流程,旨在讨论如何减少人为事故,规避未知风险,制定实用流程。工作中领导经常说的一句话就是“运维无小事”。一个小的操作失误可能就会引起巨大的损失。运维人员做事需要的就是细心,细心,再细心,仔细,仔细,再仔细。
作为运维人员口碑是在公司的立身之本,运维想要在公司内做出成绩真的很不容易,面对突如其来的故障,各个部门的技术支持,还有服务器费用的庞大支出,要想在工作中寻找出一些亮点确实不易。


将自己的名字当一个品牌来运营,作为一名运维人员,在日常工作中我们遇到麻烦的事情不计其数,需要沟通的部门也很多。如何在公司中经营自己就显得十分重要。只有有了好的口碑,凸显了自己的重要性,才会在公司中立于不败之地,才会有上升的资本。


所以不光是专研技术重要,沟通做事也非常重要,有些时候我们解决了问题,但是没有沟通好,最后也没有转换为成绩。有些时候我们遇到无法解决的问题,但是沟通好了,最后也会得到别人的认可。我们要做到态度有结果,沟通有跟踪,总之就是要做到有始有终。


运维目标:安全,稳定,高效,节约


安全,公司的运维首先应当将安全放在在第一位,安全漏洞,信息泄露这些都会关系到公司的未来发展甚至是生死存亡,发生在互联网公司的信息泄露事件不在少数都给这些公司造成很大的负面影响,要想挽回这些影响资金上的付出是很大的。所以安全是重中之重。
稳定,在安全的前提下保证业务的稳定运行是我们运维人认真考虑的,系统的稳定性关系到用户的体验效果,重要程度不言而喻,这里不再赘述。
高效,高效的利用一切资源,让它们发挥最大的价值。
节约,硬件成本的支出,是公司支出的大头,如何从硬件上节约成本是我们值得考虑的点,我们赚不了钱,但是我们可以省钱。


流程管理


流程在我们工作中是必须要有的,在工作中流程有很多,但是真正按照流程严格执行的又有几个。相信大家都会会心一笑,很多流程都是用来秋后算账的,当你的工作出现失误了,领导就会翻出流程对你一顿批斗。这个当然也怪不得领导,因为很多流程都是我们自己起草制定的,所以我们在制定流程的时候就应该多加考虑,及要考虑流程的可行性,也要能让领导接受它。
那么什么样的流程是一个好的流程呢?这里有一个小故事,有一位著名的建筑设计大师,设计迪士尼乐园经过三年的精心施工,马上就要对外开放了,然而,各个景点之间的道路该怎样连接还没有确定最后的方案。
这个大师让施工部在乐园的地上撒上草种,提前开放,小草长出来后,乐园开放,游客可以在草地上随意行走,在迪斯尼乐园提前开放的半年里,草地被踩出许多条小道,这些小道有宽有窄,优雅自然,随后这位大师让人按这些踩出的痕迹铺设人行道。最后这位大师因为这条小道获得世界大奖。


日常操作


作为运维,服务器的日常维护操作是很频繁的事情,如何做好操作记录很有必要。如果是重复的事情要模板化,流程的事情要自动化,这样可以很大程度上减少出错的概率。
有一些特殊的操作就需要在操作前先写操作步骤,越详细越好,不能在心里有了想法就到服务器上随心而为。目的明确了,在心里预想一下会减少很大的出错几率。操作完毕后一定要以截图的方式记录操作结果。


监控报警


这里不讨论那种监控工具的优劣,各个监控工具的工作方式都大同小异,报警方式无外乎短信,邮件等一些常用方式。但是在我的工作当中,服务器有几千台,报警有很多类型,某一时刻可能会收到几十条,上百条,一条一条查看运维人员很容易忽略。所以我们需要对发出去的报警信息进行二次加工,进行合并,分类。将同一类型的报警合并,按照紧急程度分类。
还有对于报警形式我认为应该采取让人强制被动接受的方式,如:使用大屏幕显示,扬声器报警,将报警发送到运维的微信群中等等形式。这样可以大大减少运维人员的漏看,忽略等情况,还可以根据报警级别提示运维人员做下一步操作动作。


故障处理


对于运维来说处理故障就是家常便饭,处理故障的时间和方法是分别运维能力的重要指标,经验越多处理故障会越快方法也会更准确,这里的经验也包括使用搜索引擎的技巧。
在我看来,直觉也是相当重要的,可能在一些有明显的提示的故障问题上没什么作用,但是遇到一些日志提示模糊就会显现出来,直觉会让你拨开迷雾寻找到最快解决问题方法。如何提升自己的直觉呢,直觉来自经验,经验来自不断的自我学习和尝试。遇到问题不要逃避,你是逃不了的,所以就迎难而上积累经验吧。
这里还想说的一点就是问题解决后的邮件回复,既然要将自己当品牌来运营,那么我们交出去的东西就应该是一个产品,什么是好的产品,能成为好的产品就应该是完美的,无可挑剔的,让人心里舒畅的。那么我们回复的邮件应该包含以下几点:问题解决结果,问题原因,问题解决过程,将来可能遇到的问题,建议等。


技术减少人为事故


是人总是会犯错的,作为运维如何减少犯错的几率呢,最好的办法就是用技术来解决,如将命令行操作改为选择操作,增加审批流程。这些就需要我们完善自动化运维平台,运维人员不再需要登录到服务器上做操作,每一步操作都有审核,都有容错,都有记录。这样就可以大大降低人为事故了。

后台回复“加群”,带你进入高手如云交流群


推荐阅读:

漫话:什么是云计算?

容器监控系统如何做,看看这篇就够了

四大网络抓包神器,总有一款适合你~

Kubernetes 和 虚拟化结合的三个主要趋势

Linux 流编辑器 sed 详解

关于 Ping 的过程,你真的了解吗?

一个Kubernetes集群节点出现not ready

多台路由器,不同网段的设备之间如何互访?

红遍全网的SD-WAN,到底是什么?

高性能负载均衡架构如何实现

Kubeadm 部署高可用 K8S 集群


喜欢,就给我一个“在看”



10T 技术资源大放送!包括但不限于:云计算、虚拟化、微服务、大数据、网络、Linux、Docker、Kubernetes、Python、Go、C/C++、Shell、PPT 等。在公众号内回复「1024」,即可免费获取!!

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存